Un correcteur d’orthographe et de grammaire qui étiquette chaque mot. Comparé à Treetagger, il est plus précis. Pour chaque mot, on a d’abord la forme, le lemme et enfin la catégorie. Par exemple, pour l'expression « rendu célèbre », le logiciel a bien analysé que "célèbre" est ici un ADJSIG, adjectif singulier. En plus, pour les noms propres beaucoup figurent dans son dictionnaire et ils sont bien catégorisés. Alors, un contre-exemple : « morte » est apparu comme (VPARPFS) dans le résultat, alors qu’il s’agit réellement d’un adjectif. Pour passer le texte à Cordial, il faut qu’il soit en iso. D'où, dans le résultat, la présence de « \r », des retours à la ligne windows dus aux diverses transformations d'encodage et de plateforme.
Treetagger est un outil qui permet d’annoter un texte en part-of-speech et lemme. Il a été développé par Helmut Schmid, de l’université de Stuttgart, Allemagne. Il permet d’étiqueter de nombreuses langues et même des langues non prévues si on lui fournit un lexique et un corpus étiqueté à la main pour son apprentissage.Les langues fournies sont plus nombreuses que Cordial qui ne traite que le français, ainsi on trouve le japonais, le chinois ou le mongol. En encodage, il accepte UTF-8 et latin 1.
Il est intégrable dans un script perl et traite dans l’ordre : mot, lemme et forme grâce à la fonction :
C’est un mini programme dans le terminal windows qui permet d’obtenir un graphe d’après une liste de patrons obtenue en BAO 3. Parmi les types de graphe, on peut avoir un graphe normal avec tous les « pos » ou un qui contient un motif cherché dans la liste. Dans le dernier graphe, on n’a pas seulement le motif cherché mais aussi les mots associés à ce motif. La sortie de patron2 est une image, on peut simplement déplacer les formes pour avoir un arbre propre. L’inconvénient est que l’on ne peut pas zoomer sur les formes.
La liste complète sur le site du CPAN
Le cours de Master de TAL (Paris III - Inalco - Paris X)
Et, bien sûr le site W3Schools.